草庐IT

JavaBeans 替代品?

全部标签

hadoop - 当文件不在目录中时将文件从 HDFS 加载到配置单元的替代方法

ROWFORMATDELIMITEDFIELDSTERMINATEDBY'${database_delimiter}'LINESTERMINATEDBY'\n'STOREDASTEXTFILELOCATION'${database_location}/Person';这里的person应该是一个目录。而person是part-m文件而不是目录。 最佳答案 如果我对问题的理解正确,Hive确实无法在文件上创建表。它需要是一个目录位置。因此,无论您有什么进程,都需要制作上述目录。例如,无论您有什么映射器进程,您都需要指定一个输出目录,如

hadoop - MapR 是 MapReduce 的替代品吗

我看到了mapreduce作业的替代品MapR,它可以直接从流中读取数据并进行处理。我的理解正确吗?有没有我可以引用的sample?它是商业广告吗?使用它有什么问题吗?它是水槽的替代品吗?我们可以将它与apachehadoop一起使用吗?如果是,那么为什么发行版只讨论yarn和mapreduce而没有讨论MapR?提前致谢。 最佳答案 MapR是ApacheHadoop的商业发行版,HDFS被MapR-FS取代。本质上,它是相同的Hadoop和相同的Map-Reduce作业在上面运行,覆盖了大量的营销,导致像你这样的困惑和问题。这是

hadoop - 关于 IBM Analytics for Hadoop on Bluemix 的替代品有任何更新吗?

IBMAnalyticsforHadooponBluemix的替代服务是否有任何更新?我了解到该服务已于2月停用,并且正在开发替代服务的测试版。我是IBMAcademicInitiative的成员,计划在5月开始的类(class)中使用此服务,我和我所在大学的学术IT团队担心到那时我们还没有关于是否可以使用等效服务的消息。任何人都可以提供更新或建议吗?我们应该考虑其他基于云的Hadoop服务吗?提前致谢。 最佳答案 IBMAnalyticsforApacheHadoopBETA服务已被BiginsightsforApacheHado

hadoop - MapReduce 程序中 DistributedCache 的替代方案是什么?

当您需要将您的mapper/reducer经常使用的少量数据放入distributedCache时,DistributedCache似乎会派上用场。但在某些情况下,您想要放入映射器的数据会非常大,比如超过300MB。在这种情况下你会怎么做?在这种情况下,分布式缓存的替代方案是什么? 最佳答案 分布式缓存默认是几千兆字节,所以300MB不一定是问题。(您可以在mapred-site.xml中调整大小。)如果您的作业经常运行并且缓存中几乎没有其他改动,那么为节点获取300MB仍然是值得的。另一种选择是将您的文件放在HDFS上,让任务从那

hadoop - PIG 中是否有 HBaseStorage 的替代方案

我在pig脚本中使用带有-caching选项的HBaseStorage,如下所示HBaseStorage('countDetails:ansCountcountDetails:divCountcountDetails:unansCountcountDetails:engCountcountDetails:ineffCountcountDetails:totalCount','-caching1000');我可以看到这反射(reflect)在我的job.xml中但我可以看到它没有时间差异我正在处理1000万条记录并将大约160mb的数据存储到HBase中。当我将结果存储在hdfs中时,处

csv - 使用逗号分隔值和 .csv 或 .txt 文件格式将 Hive 输出到 s3。使用 sqoop 从 hive 导出到 s3 的替代方法也可以使用

我一直在尝试使用hive输出到s3。我在这方面取得了成功,但结果输出不是逗号分隔的,而是有一个分隔符,例如^A我想。我还致力于使用sqoop将数据从s3导入和导出到psql,但我无法在hive上执行此操作,即使我得到了解决方案也可以。我试过的是sethive.io.output.fileformat=CSVTextFile;INSERTOVERWRITEDIRECTORY"s3n://akshayhazari/results"select*frombooks;这是工作:Totaljobs=3LaunchingJob1outof3Numberofreducetasksissetto0si

java - "sql like"apache 配置单元的替代品

我正在寻找一个支持类似于sql查询的分布式数据库的解决方案。更准确地说,它应该有一个JDBC连接器和与sql语法相同或相似的语法。通过谷歌搜索,我发现了HIVEwithhadoop。您还知道哪些其他选择? 最佳答案 ClouderaImpala是一个支持类SQL查询并与HiveQL兼容的框架。虽然Hive已经存在一段时间并且面向批处理,但Impala是新的并且适合实时处理。不确定JDBC是否与Impala一起工作。 关于java-"sqllike"apache配置单元的替代品,我们在St

hadoop - start-mapred.sh 的替代品是什么?

我正在阅读有关Hadoop的书,其中提到了脚本start-mapred.sh。我下载了最新版的Hadoop,里面没有start-mapred.sh脚本。我看到有start-yarn.sh但它会启动JobTracker和TaskTracker组件吗? 最佳答案 Yarn是MapReduce的下一个版本,它不使用作业和任务跟踪器,而是使用资源管理器来完成它的工作。对于MRv1,使用2.3.0版本的hadoop。同样的程序也可以使用Yarn运行。启动hadoop只需使用start-all.sh或start-dfs.sh和start-yar

hadoop - 启动 hadoop 流作业的替代方法

我可以从终端成功启动hadoop流作业,但我正在寻找通过api、eclipse或其他方式启动流作业的方法。我找到的最接近的是这篇文章https://stackoverflow.com/questions/11564463/remotely-execute-hadoop-streaming-job但它没有答案!欢迎提出任何想法或建议。 最佳答案 有趣的问题,我找到了一种方法,希望这对你也有帮助。第一种方法应该适用于Hadoop0.22:Configurationconf=newConfiguration();conf.set("fs.

python - 用于 win32 平台的 Hadoop/Map-reduce 框架的替代品

我发现Windows上的Hadoop有点令人沮丧:我想知道是否有适合Win32用户的Hadoop的任何重要替代品。我最看重的功能是:在小型网络上易于初始设置和部署(如果我们为这个项目分配了超过20台工作PC,我会感到惊讶)易于管理-理想的框架应该具有基于Web/GUI的管理系统,这样我就不必自己编写一个。流行且稳定的东西。奖金取决于我们能否及时交付该项目。背景:我工作的公司想要构建一个新的网格系统来运行一些财务计算。我一直在评估的第一个框架是Hadoop。这似乎完全符合预期,只是它非常面向UNIX。我能够在UbuntuVirtualBox上启动并运行所有教程。不幸的是,在Win32上似